Video understanding is a growing field and a subject of intense research, which includes many interesting tasks to understanding both spatial and temporal information, e.g., action detection, action recognition, video captioning, video retrieval. One of the most challenging problems in video understanding is dealing with feature extraction, i.e. extract contextual visual representation from given untrimmed video due to the long and complicated temporal structure of unconstrained videos. Different from existing approaches, which apply a pre-trained backbone network as a black-box to extract visual representation, our approach aims to extract the most contextual information with an explainable mechanism. As we observed, humans typically perceive a video through the interactions between three main factors, i.e., the actors, the relevant objects, and the surrounding environment. Therefore, it is very crucial to design a contextual explainable video representation extraction that can capture each of such factors and model the relationships between them. In this paper, we discuss approaches, that incorporate the human perception process into modeling actors, objects, and the environment. We choose video paragraph captioning and temporal action detection to illustrate the effectiveness of human perception based-contextual representation in video understanding. Source code is publicly available at https://github.com/UARK-AICV/Video_Representation.
translated by 谷歌翻译
The introduction of high-quality image generation models, particularly the StyleGAN family, provides a powerful tool to synthesize and manipulate images. However, existing models are built upon high-quality (HQ) data as desired outputs, making them unfit for in-the-wild low-quality (LQ) images, which are common inputs for manipulation. In this work, we bridge this gap by proposing a novel GAN structure that allows for generating images with controllable quality. The network can synthesize various image degradation and restore the sharp image via a quality control code. Our proposed QC-StyleGAN can directly edit LQ images without altering their quality by applying GAN inversion and manipulation techniques. It also provides for free an image restoration solution that can handle various degradations, including noise, blur, compression artifacts, and their mixtures. Finally, we demonstrate numerous other applications such as image degradation synthesis, transfer, and interpolation.
translated by 谷歌翻译
Predictive simulations of the shock-to-detonation transition (SDT) in heterogeneous energetic materials (EM) are vital to the design and control of their energy release and sensitivity. Due to the complexity of the thermo-mechanics of EM during the SDT, both macro-scale response and sub-grid mesoscale energy localization must be captured accurately. This work proposes an efficient and accurate multiscale framework for SDT simulations of EM. We employ deep learning to model the mesoscale energy localization of shock-initiated EM microstructures upon which prediction results are used to supply reaction progress rate information to the macroscale SDT simulation. The proposed multiscale modeling framework is divided into two stages. First, a physics-aware recurrent convolutional neural network (PARC) is used to model the mesoscale energy localization of shock-initiated heterogeneous EM microstructures. PARC is trained using direct numerical simulations (DNS) of hotspot ignition and growth within microstructures of pressed HMX material subjected to different input shock strengths. After training, PARC is employed to supply hotspot ignition and growth rates for macroscale SDT simulations. We show that PARC can play the role of a surrogate model in a multiscale simulation framework, while drastically reducing the computation cost and providing improved representations of the sub-grid physics. The proposed multiscale modeling approach will provide a new tool for material scientists in designing high-performance and safer energetic materials.
translated by 谷歌翻译
基于微服务的体系结构已成为云原生应用程序的普遍存在。每天利用越来越多的应用程序在云平台上部署的应用程序,需要进行更多的研究工作,以了解如何应用不同的策略来有效地管理各种云资源。大量研究已使用反应性和主动自动化策略部署了自动资源分配算法。但是,当前算法的效率仍然存在差距,例如从其体系结构和部署环境中捕获微服务的重要特征,例如,缺乏对图形依赖性的考虑。为了应对这一挑战,我们提出了Graph-PHPA,这是一种基于图的主动水平POD自动级别自动化策略,用于将云资源分配给微服务,以利用长期短期记忆(LSTM)和基于图形神经网络(GNN)的预测方法。我们使用BookInfo微服务在专用的测试环境中使用基于现实数据集生成的实时工作负载来评估图形phpa的性能。我们通过将图形PHPA与Kubernetes中基于规则的资源分配方案进行比较来证明了图形phpa的疗效。已经实施了广泛的实验,我们的结果说明了我们在不同测试方案中提出的资源节省方法优于基于反应性规则的基线算法的优势。
translated by 谷歌翻译
跨核心联合学习利用了几百个可靠的数据筒仓,并具有高速访问链接,共同训练模型。尽管这种方法成为联合学习中的流行环境,但设计出强大的拓扑以减少训练时间仍然是一个开放的问题。在本文中,我们提出了一种用于跨核心联合学习的新的多编码拓扑。我们首先使用覆盖图构造多式图。然后,我们将此多数分析为具有孤立节点的不同简单图。隔离节点的存在使我们能够执行模型聚合而无需等待其他节点,从而减少训练时间。我们进一步提出了一种新的分布式学习算法,以与我们的多编码拓扑一起使用。公共数据集的密集实验表明,与最近的最新拓扑相比,我们提出的方法大大减少了训练时间,同时确保收敛并保持模型的准确性。
translated by 谷歌翻译
卷积神经网络(Convnets或CNNS)已被坦率地部署在计算机视觉和相关领域的范围中。然而,这些神经网络的训练动态仍然难以捉摸:训练它们很难且计算昂贵。已经提出了无数的架构和培训策略来克服这一挑战,并解决了图像处理中的几个问题,例如语音,图像和动作识别以及对象检测。在本文中,我们提出了一种基于粒子群优化(PSO)的新型训练。在这样的框架中,每个转弯的权重向量通常被铸成一个粒子在相空间中的位置,从而使PSO协作动力学与随机梯度下降(SGD)交织在一起,以提高训练性能和泛化。我们的方法如下:i)[常规阶段]每个Convnet都通过SGD独立训练; ii)[协作阶段] convnets在当前的权重(或粒子位置)及其对损耗函数的梯度估计中共享。不同的台阶尺寸由不同的convnet创造。通过将较大(可能是随机)的阶梯尺寸以及更保守的阶梯尺寸正确混合,我们提出了一种具有竞争性能的算法,相对于CIFAR-10的其他基于PSO的方法(精度为98.31%)。这些准确性水平是通过仅诉诸四个Convnet来获得的 - 预计此类结果将随着协作交流的数量而扩展。我们使我们的源代码可用于下载https://github.com/leonlha/pso-convnet-dynamics。
translated by 谷歌翻译
问题回答(QA)是信息检索和信息提取领域内的一项自然理解任务,由于基于机器阅读理解的模型的强劲发展,近年来,近年来,近年来的计算语言学和人工智能研究社区引起了很多关注。基于读者的质量检查系统是一种高级搜索引擎,可以使用机器阅读理解(MRC)技术在开放域或特定领域特定文本中找到正确的查询或问题的答案。 MRC和QA系统中的数据资源和机器学习方法的大多数进步尤其是在两种资源丰富的语言中显着开发的,例如英语和中文。像越南人这样的低资源语言见证了关于质量检查系统的稀缺研究。本文介绍了XLMRQA,这是第一个在基于Wikipedia的文本知识源(使用UIT-Viquad语料库)上使用基于变压器的读取器的越南质量检查系统,使用深​​层神经网络模型优于DRQA和BERTSERINI,优于两个可靠的QA系统分别为24.46%和6.28%。从三个系统获得的结果中,我们分析了问题类型对质量检查系统性能的影响。
translated by 谷歌翻译
用于运动中的人类的新型视图综合是一个具有挑战性的计算机视觉问题,使得诸如自由视视频之类的应用。现有方法通常使用具有多个输入视图,3D监控或预训练模型的复杂设置,这些模型不会概括为新标识。旨在解决这些限制,我们提出了一种新颖的视图综合框架,以从单视图传感器捕获的任何人的看法生成现实渲染,其具有稀疏的RGB-D,类似于低成本深度摄像头,而没有参与者特定的楷模。我们提出了一种架构来学习由基于球体的神经渲染获得的小说视图中的密集功能,并使用全局上下文修复模型创建完整的渲染。此外,增强剂网络利用了整体保真度,即使在原始视图中的遮挡区域中也能够产生细节的清晰渲染。我们展示了我们的方法为单个稀疏RGB-D输入产生高质量的合成和真实人体演员的新颖视图。它概括了看不见的身份,新的姿势,忠实地重建面部表情。我们的方法优于现有人体观测合成方法,并且对不同水平的输入稀疏性具有稳健性。
translated by 谷歌翻译
本文介绍了视听场景分类(SC)的任务,其中输入视频被分类为五个现实生活中拥挤的场景中的一个:'骚乱','噪音 - 街道','Firework-event','Music-event'和“运动氛围”。为此,我们首先从YouTube(野外场景中)收集这五个拥挤的上下文的音频视觉数据集(视频)。然后,建议广泛的深度学习框架独立地部署音频或视觉输入数据。最后,从高级深度学习框架获得的结果融合以实现最佳的准确度分数。我们的实验结果表明,音频和视觉输入因素独立贡献了SC任务的性能。值得注意的是,深入学习框架的集合探索音频或视觉输入数据的最佳精度为95.7%。
translated by 谷歌翻译
高级深度学习(DL)算法可以预测患者基于乳房成像报告和数据系统(BI-RAD)和密度标准的患者发育乳腺癌的风险。最近的研究表明,多视图分析的结合改善了整体乳房考试分类。在本文中,我们提出了一种新的多视图DL方法,用于乳房X线照片的Bi-RAD和密度评估。所提出的方法首先部署深度卷积网络,用于分别对每个视图进行特征提取。然后将提取的特征堆叠并馈入光梯度升压机(LightGBM)分类器中以预测Bi-RAD和密度分数。我们对内部乳房数据集和公共数据集数字数据库进行广泛的实验,用于筛选乳房X线摄影(DDSM)。实验结果表明,所提出的方法在两个基准数据集中突出了巨大的边距(内部数据集5%,DDSM数据集10%)优于两个基准分类方法。这些结果突出了组合多视图信息来改善乳腺癌风险预测性能的重要作用。
translated by 谷歌翻译